본문 바로가기
728x90
반응형

Data Science/Machine Learning15

메타 LLAMA 라마 모델 설치 및 사용방법 지난 달, 메타에서 일부 등록한 사람들을 대상으로 공개된 LLAMA가 토렌트, 깃허브 같은 공개 사이트에 유출되면서 전세계에서 난리가 났었는데요. 약간 뒤늦게, 어떻게 쓸 수 있는지 찾아보다가 참고할 수 있는 링크를 공유드립니다. 윈도우, 리눅스에 LLaMA 사용벙법 LLAMA INSTALL 방법 A LLaMA that spits out posts: Our test of Meta's AI Meta's AI has escaped the lab! Discover the ethical problems it poses and get a sense of the environmental impact of such an AI. les-enovateurs.com 각 모델을 사용하려면 가지고 있어야 하는 최소 용량도 함.. 2023. 4. 14.
구글 Colab 드라이브 파일에서 import 하는법 데이터를 전처리하고 실험하고 여러 함수를 만들다보니, 다른 Colab 파일에서 만든 기능을 가져와서 사용해야 하는 일이 종종 발생하기 때문에, 다른 ipynb 코랩 파일을 작업 중인 코랩파일로 불러올 수 있는 기능을 가져왔습니다 [ 작업 중인 Colab 파일] !pip install import_ipynb import import_ipynb import "your .ipynb file" 만약, 불러온 파일의 sum이라는 함수를 쓰고 싶다면, import filename filename.sum() 처럼 일반적으로 import하고 함수를 사용하는 형태로 쓸 수 있습니다 Source: https://stackoverflow.com/questions/56904407/google-colab-call-functio.. 2022. 11. 27.
구글 Colab 여러 데이터프레임 한번에 보는 법 가끔 구글링을 하다보면 Python Data Science Handbook에서 제공하는 colab 코드들에서 유용한 정보들을 찾을 수 있는데요. 이번에 발견한 데이터프레임 여러개를 한번에 코랩에서 보는 법을 정리해보겠습니다 :) 여러 데이터 프레임을 한번에 볼 수 있게 해주는 클래스를 만들어줍니다. class display(object): """Display HTML representation of multiple objects""" template = """ {0}{1} """ def __init__(self, *args): self.args = args def _repr_html_(self): return '\n'.join(self.template.format(a, eval(a)._repr_html_.. 2022. 11. 24.
데이터프레임 결측값 쉽게 보는 법 총정리 결측값이 있는 열을 리스트로 보고싶다면 ) df.columns[df.isna().any()].tolist() 결측값이 있는 열을 조회하고 싶다면 ) df.loc[:, df.isna().any()] 각 열이 결측값이 있는지 여부를 True/False로 보고싶다면 ) df.isnull().any() 각 열의 결측값 개수를 보고싶다면 ) df.isnull().sum() 데이터프레임의 전체 결측값 개수 총합을 알고 싶다면 ) df.isnull().sum().sum() 결측값이 있는 열의 결측값 비율을 보고싶다면 ) null_cnt = train.isnull().sum() *100/ len(train) null_cnt[null_cnt>0] Source: https://stackoverflow.com/questio.. 2022. 11. 21.
LightGBM 파라미터 튜닝 가이드 정리 LightGBM을 돌리면서 GridSearch를 해보려하니 파라미터를 어떻게 조율해야 할지 감이 안 잡혀서 자료를 뒤지다가 LightGBM 홈페이지에서 제공하는 파라미터 튜닝 가이드를 발견했습니다! 가이드의 내용을 정리하면서 어떻게 하면 LightGBM을 효과적으로 사용할 수 있을지 알아보겠습니다. LightGBM 핵심 파라미터 LGBM은 leaf-wise tree growth 알고리즘이기 때문에 얼마나 깊이, 얼마 만큼의 leaf 를 형성하도록 조율하느냐가 매우 중요합니다. 아래 파라미터들은 leaf와 직접적으로 연관된 핵심 파라미터로 볼 수 있습니다. num_leaves 이는 트리당 최대 leaf(자식노드)의 개수를 의마합니다. 이론적으로는 num_leaves = 2^(max_depth)로 설정하면 .. 2022. 10. 31.
StackingCVRegressor 개념 및 활용방법 정리 머신러닝 Stacking을 할 때 일반적으로 사이킷런의 StackingClassifier 혹은 StackingRegressor을 사용하는데요 이번에 StackingCVRegressor을 만나서 참고한 사이트의 내용을 정리해보려 합니다 :) ‼ StackingRegressor 과 StackingCVRegressor의 차이 둘 다 베이스 학습기와 메타 학습기를 통해서 여러 모델을 스택킹한다는 측면에서는 같지만, 이름에서 눈치챌 수 있듯이 CV(Cross Validate)을 하는지 여부에 차이가 있습니다. => 데이터가 통으로 train데이터를 쓰는지 vs KFold처럼 각 순회마다 k-1 폴드를 학습에 사용하는지의 차이 제가 참고한 사이트의 그림을 가지고 왔는데요, 보시면 일반적인 스택킹처럼 트레이닝 셋을 .. 2022. 10. 31.
728x90
반응형